人臉辨識-day20 資料預處理--1

2021 iThome 鐵人賽

DAY 20

自我挑戰組

人臉辨識的基礎理論系列第 20 篇

13th鐵人賽

er201024

2021-10-05 22:39:06

1415 瀏覽

分享至

在做模型訓練時，要先將訓練資料做一些事前的處理，為以下這幾類：資料平衡、異常點處理、缺失值處理、特徵選擇、特徵提取，做一些介紹與結論。

資料平衡
在人臉辨識訓練的階段，使用者(辨識者)的資料大多都使用一張或是數量不多的影像，未知者可以收集到多人，每個人一張的情況下，數量可能達到幾萬張，但跟使用者的數量差距太大，所以需要使用演算法的方式，在訓練時將學習的比例在學習使用者調高，這樣才不會都只學習到未知者的部分，在辨識時不會連使用者都因未過門檻值而辨識成未知者；若將訓練時將學習的比例在未知者較高，因學習較多未知者的資料，所以不在資料庫中的人，較不容易辨識成資料庫中的人，換句話說就是未知者無法進入系統的機率較高。

異常點處理
在處理資料時，要檢查在資料中是否有少數資料與資料大多的特徵或行為不一致，這些資料叫做異常點，如在人臉辨識使用人臉偵測時，有可能擷取到的影像不是臉，而是其他如帽子、臉的其他部位等，這些資料需要剃除，因為若使用這些資料有可能在訓練時模型無法學習到資訊，過多的化導致無法收斂等。